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(57) Alistract 

In Older to transmit voice data, the voice data flow is broken down into phonemes. A code character is assigned to each phoneme in 
a selective language and/or speaker-specific phoneme catalog (PNl, PN2) and transmitted to a voice synthesis device (SS) located at (he 
transmission target (SD2). whereby the amount of data to be transmitted is considerably reduced. The voice data flow is broken down into 
phonemes by a neuronal network (NN). which is trained to recognize the phonemes stored in the selective language and/or speaker-spcwcific 
phoneme catalog (PNl, PN2). The flow of code characters received is once again converted into a sequence of phonemes and emitted by 
the voice synthesis device (SS). 

(57) Zusanunenfassung 

Zum tlbermitteln von Sprachdaten wird der Sprachdatenstrom in Phoneme zerlegt und fttr jedes Phonem ein dicsem in einem 
auswahlbaren sprach- und/oder sprecherspezifischen Phonemkatalog (PNl. PN2) zugcordnetes Kodczeichcn zu eincr Sprachsyntheseein- 
richtung (SS) am ObemiitUungsziel (SD2) Ubcrtragen, wodurch die zu Obertragende Datenmengc i.a. staik reduziert wird. Das Zerlegcn 
des Sprachdatenstroms in Phoneme wird von einem neuronalen Netz (NN) ausgefOhrt, das auf ein Ertennen der im ausgewflhlten j>nich- 
und/oder sprecherspezifischen Phonemkatalog (PNl, PN2) hinterlegten Phoneme trainiert ist. Von der Sprachsynthcseeinrichtung (SS) wird 
der Strom empfangener Kodezeichen wieder in eine Abfolge von Phonemen umgesetzt und ausgegeben. 
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Beschreibung 

Verfahren zum Obermitteln von Sprachdaten 

5 Die vorliegende Erfindung betrifft ein Verfahren zum Obermit- 
teln von Sprachdaten, wobei die Sprachdaten vor dem Obermit- 
teln komprimiert und am Obertragungsziel wieder dekomprimiert 
werden. Das Komprimieren beruht dabei auf einem Zerlegen der 
Sprachdaten in Phoneme. Phoneme sind die ftlr die Wahrnehmung 
10 gesprochener Sprache wesentlichen akustischen Sprachelemente. 

Es ist bekannt, Sprachdaten vor einem Obermitteln in einem 
Kommunikationsnetz zu komprimieren, um moglichst wenig Ober- 
tragungsbandbreite im Kommunikationsnetz zu belegen. Bei ei- 

15 ner Wiedergabe der Sprache am Obermittlungsziel werden in 

diesen Fallen die komprimierten Sprachdaten durch Dekompri- 
mieren wieder in den Urspriangszustand oder einen dazu gleich- 
wertigen Zustand zurtlckgeftlhrt . Da sich die durch ein solches 
Verfahren erzielbare Reduktion der Obertragungsbandbreite di- 

20 rekt nach der Kompressionsrate des verwendeten Komprimie- 
rungsverfahrens richtet, ist eine m5glichst hohe Kompressi- 
onsrate erstrebenswert . 

Bei SprachObermittlung werden iiblicherweise Pr^diktionsver- 
25 fahren zum Komprimieren eingesetzt/ welche die statistische 
Ungleichverteilung der in Sprachdaten auftretenden Datenmu- 
ster ausnutzen/ um eine Sprachdaten eigenttimliche/ hohe Red- 
undanz zu reduzieren. Beim Dekomprimieren kGnnen die ur- 
sprtlnglichen Sprachdaten aus den komprimierten Sprachdaten 
30 bis auf geringe, verf ahrensinhSirente Verluste, nahezu verfSl- 
schungsfrei rekonstruiert werden. Die erreichbare Kompressi- 
onsrate liegt dabei in der Gr5Jienordnung von etwa 1:10. Ver- 
fahren dieser Art sind beispielsweise in ^.Information und Co- 
dierung^' von Richard W. Hamming, VCH Verlagsgesellschaf t 
35 Weinheim, 1987, Seiten 81 bis 97 beschrieben. 
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In typischen Sprachdaten macht eine rein inhaltliche Informa- 
tion nur einen geringen Bruchteil der gesamten Sprachinforma- 
tion aus. Der grofite Teil der Sprachinf ormation besteht in 
der Regel aus sprecherspezif ischer Information, die sich z,B. 
5 in Nuancen der Stimme oder der Stimmlage des Sprechers aus- 
drtickt. Kommt es bei einer Obermittlung von Sprachdaten im 
wesentlichen nur auf deren inhaltliche Information an, z.B. 
bei rein informativen Mitteilungen/ automatischen Ansagen 
o.a./ sind daher durch Reduktion der sprecherspezif ischen In- 
10 formation auch wesentlich hGhere Kompressionsraten mttglich 

als mit Verfahren, die den Informationsgehalt der Sprachdaten 
vollstandig oder nahezu vollstandig erhalten* 

Die kleinsten akustischen Einheiten, in denen Sprache vom 
15 Sprecher formuliert wird und in denen sich auch die inhaltli- 
che Information - die gesprochenen W5rter - ausdrtickt, sind 
Phoneme. Aus den Patentschrif ten EP 71716 Bl, DE 3513243 C2 
und EP 423800 Bl sind bereits Anordnungen und Verfahren be- 
kannt, bei denen ein Sprachdatenstrom hinsichtlich der darin 
20 enthaltenen Phoneme analysiert und in einen Strom von den er- 
kannten Phonemen jeweils zugeordneten Kodezeichen iimgesetzt 
wird, um die Sprachdaten dadurch vor einem Obermitteln zu 
komprimieren . 

25 Ein wesentliches Problem besteht dabei darin, die Phoneme, 
aus welchen sich ein beliebiger zu tlbermittelnder Sprachda- 
tenstrom zusammensetzt/ zuveriassig zu erkennen. Dies wird 
insbesondere dadurch erschwert, daB dasselbe Phonem je nach 
Sprecher und dessen Sprachgewohnheit in sehr unterschiedli- 

30 Cher AusprSgung auftreten kann. Werden Phoneme innerhalb des 
Sprachdatenstroms nicht erkannt oder falschen Lauten zugeord- 
net, verschlechtert sich die tJbertragungsqualitat der Sprache 
- unter Umstcinden bis zur UnverstSndlichkeit . Eine verlafili- 
che Phonemanalyse ist daher ein wichtiges Kriterium fUr die 

35 Qualitat bzw. die Anwendungsbreite derartiger Sprachtibermitt- 
lungsver f ahren . 
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Aufgabe der vorliegenden Erfindung ist es, ein flexibles und 
effizientes Verfahren z\m Obermitteln von Sprachdaten anzuge- 
hen, bei dem Sprachdaten durch eine verbesserte Phonemanalyse 
vor dem Obermitteln komprimiert werden k5nnen. 

5 

Gel5st wird diese Aufgabe erf indungsgemaU durch ein Verfahren 
mit den Merkmalen des Patentanspruchs 1. 

Vorteilhafte Weiterbildungen der Erfindung sind in den Un- 
10 teransprtichen angegeben. 

Bei einem erf indungsgemSLBen Verfahren werden von einer 
Sprachdatenquelle zu einem Obermittlungsziel zu tibermittelnde 
Sprachdaten vor dem eigentlichen Obertragen einer Phonemana- 

15 lyse unterzogen. Zur Anwendung des Verfahrens k5nnen die 

Sprachdaten in vielerlei Form vorliegen; beispielsweise in 
analoger oder digitalisierter Form oder als Sprachsignale be- 
schreibende Merkmalsvektoren, jeweils in zeit- und/oder fre- 
quenzaufgelbster Darstellung. Die Phonemanalyse wird erfin- 

20 dungsgemafi durch ein neuronales Netz ausgefUhrt, das auf ein 
Erkennen von Phonemen trainiert ist. Die Prinzipien einer 
Sprach- bzw. Phonemerkennung mittels neuronaler Netze sind 
beispielsweise in ^Review of Neutral Networks for Speech Re- 
cognition^^ von R. P* Lippmann in Neural Computation 1^ 1989, 

25 Seiten 1 bis 38 beschrieben. 

Die Phoneme nach denen der Sprachdatenstrom zu analysieren 
ist und auf die das neuronale Netz trainiert ist, sind in 
sprach- und/oder sprecherspezif ischen Phonemkatalogen hinter- 

30 legt, wo ihnen jeweils ein eindeutiges Kodezeichen, z.B. ein 
Index Oder eine Nummer/ zugeordnet ist. Als Sprache k5nnen in 
diesem Zusammenhang u.a. Landessprachen, regionale Dialekte 
und AusprSgungen von Sprachbesonderheiten verstanden werden. 
Die sprach- bzw. sprecherspezif ischen Phonemkataloge k5nnen 

35 in einem das erf indungsgemaBe Verfahren vorbereitenden 

Schritt durch Analyse von jeweils unterschiedlichen Sprachen 
angeharenden und/oder von unterschiedlichen Sprechern stam- 
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menden/ reprSsentativen Sprachdaten erstellt werden. Dabei 
werden diejenigen akustischen Sprachelemente/ die sich fUr 
die jeweiligen reprasentativen Sprachdaten als charakteri- 
stisch erweisen oder eine representative Idealform dieser 
5 Sprachelemente, als Phoneme im betreffenden Phonemkatalog 
hinterlegt. Die Analyse der reprSsentativen Sprachdaten kann 
insbesondere auch mit Hilfe eines neuronalen Netzes durchge- 
fOhrt werden. Ferner kann die Auswahl von reprSsentativen 
Sprachdaten bzw. deren charakteristischen Sprachelementen 
10 vorteilhafterweise Besonderheiten der zu tlbermittelnden 

Sprachdaten/ wie z . B . HintergrundgerSuschen o . a . , angepaBt 
werden. 

Ein Phonemkatalog kann beispielsweise als ein konventioneller 
15 Speicher und/oder als Teil eines trainierten neuronalen Net- 
zes realisiert sein, wobei im letzten Fall die hinterlegten 
Phoneme durch einen inneren Zustand des trainierten neurona- 
len Netzes reprSsentiert sein kOnnen. Weiterhin kann die den 
Lernzustand des neuronalen Netzes bestimmende, sogenannte Ge- 
20 wichtsmatrix als Phonemkatalog aufgefaBt werden, Eine solche 
Gewichtsmatrix kann aus einem trainierten neuronalen Netz 
ausgelesen, in einem Speicher hinterlegt und bei Bedarf in 
ein beliebiges neuronales Netz eingelesen werden, das dadurch 
zu einem entsprechend trainierten neuronalen Netz wird. 



Vor der Phonemanalyse der Sprachdaten durch ein neuronales 
Netz wird zunM.chst einer der sprach- und/oder sprecherspezi- 
fischen Phomenkataloge ausgewahlt und die Sprachdaten an- 
schlieAend dem auf das Erkennen der in dem ausgewglhlten Pho- 

30 nemkatalog hinterlegten Phoneme trainierten neuronalen Netz 
zur Phonemanalyse zugefUhrt. Die Auswahl des Phonemkatalogs 
kann dabei abhangig von einer Kennung eines die zu tlbertra- 
genden Sprachdaten sendenden Teilnehmers erfolgen oder von 
einem sprach- und/oder sprecherunterscheidenden neuronalen 

35 Netz veranlaBt werden, das auf ein Erkennen der Sprache, der 
die zu ttbertragenden Sprachdaten angeh5ren, und/oder des 



25 
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Sprechers, von dem die zu Ubertragenden Sprachdaten stammen/ 
trainiert ist. 

FUr die bei der Phonemanalyse in den Sprachdaten erkannten 
Phoneme wird das diesen im ausgewahlten Phonemkatalog jeweils 
zugeordnete Kodezeichen ermittelt und anstelle des dem jewei- 
ligen Phonem entsprechenden Sprachdatenmusters zvm Oberitiitt- 
lungsziel Ubertragen. Da die tibertragenen Kodezeichen im all- 
gemeinen wesentlich ktlrzer als die dadurch reprSsentierten 
Sprachdateiuauster sind, wird die zu Ubertragende Datenmenge 
im allgemeirien wesentlich reduziert und so eine hohe Kompres- 
sionsrate erzielt. Am tJbermittlungsziel werden die empfange- 
nen Kodezeichen einer Sprachsyntheseeinrichtung zugeftihrt, 
die den Strom der Kodezeichen wieder in eine Abfolge von Pho- 
nemen umsetzt und ausgibt* Zum Ersetzen der empfangenen Kode- 
zeichen durch auszugebende Phoneme greift die Sprachsynthes- 
seeinrichtung dabei ebenfalls auf einen Phonemkatalog zu. Die 
Kompressionsrate kann eventuell noch gesteigert werden, indem 
der Strom der Kodezeichen vor dessen Obertragung durch Anwen- 
dung eines weiteren Komprimierungsverfahrens komprimiert und 
am Obermittlungsziel vor dem Zuftlhren zur Sprachsyntheseein- 
richtung wieder dekomprimiert wird. 

Die Verwendung sprecher- bzw. sprachspezif ischer Phonemkata- 
loge erhoht die Zuveriassigkeit der Phonemanalyse und damit 
auch die Qualitat der Sprachsynthese insbesondere bei tJber- 
tragung von Sprachdaten, die von verschiedenen Sprechern 
stammen. Weiterhin kann durch die Wahl des der Sprachsynthese 
zugrunde liegenden Phonemkatalogs die Wiedergabe der Sprach- 
daten auch vor gebbaren Erfordernissen angepafit werden, z.B. 
um bestimmte Sprecher oder Sprachbesonderheiten zu simulieren 
Oder um durch ein Verandern der Stimme auf besondere Umstande 
aufmerksam zu machen. 



35 



Nach einer vorteilhaf ten Weiterbindiing des erf indugsgemSBen 
Verfahrens kann ein Phonemkatalog wahrend einer Obermittlung 
von Sprachdaten durch Analyse dieser konkret zu Obermitteln- 
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den Sprachdaten - gegebenenfalls mehrmals - aktualisiert wer- 
•> den und/oder das neuronals Netz mittels der zu tlbermittelnden 

Sprachdaten weiter trainiert werden. Auf diese Weise kann die 
* Phonemanalyse bzw. die Sprachsynthese auch kurzf ristigen An- 

5 derungen von Spracheigenheiten angepaBt werden. 

GemaB einer Weiterbildung der Erfindung k5nnen Informationen 
Uber einen bei der Phonemanalyse verwendeten Phonemkatalog 
der Sprachsyntheseeinrichtung Ubermittelt werden. Auf diese 

10 Weise ist es beispielsweise mOglich/ der Sprachsynteseein- 
richtung einen Wechsel eines Phonemkataloges, z.B. aufgrund 
eines Sprecher- oder Sprachwechsels, anzuzeigen oder, falls 
ein zu verwendender Phonemkatalog dort noch nicht vorliegt, 
diesen ganz oder teilweise zu Obermitteln. Auch Anderungen 

15 Oder Aktualisierungen von Phonemkatalogen konnen so der 

Sprachsyntheseeinrichtung Ubermittelt und damit verftigbar ge- 
macht werden, 

Eine weitere vorteilhafte Weiterbildxing der Erfindiing sieht 

20 vor, dafi bei der Sprachsyntheseeinrichtung verschiedene, fUr 
die Phonemerzeugung relevante Parameter, wie z.B. die LSnge, 
Lautstarke, Betonung, Stimmlage, Stimme etc. mit der Phoneme 
wiedergegeben bzw. ausgegeben werden, einstellbar sind; vor- 
zugsweise fUr jedes einzelne Phonem. Die Wiedergabe der tlber- 

25 mittelten Sprachdaten kann so unterschiedlichen Erfordernis- 
sen angepaBt werden. Beispielsweise kann die Wiedergabequali- 
tat i.a. verbessert werden, indem Laut- und/oder Stimmbeson- 
derheiten, wie z.B. die Lautstarke und TonhOhe von Silben 
Oder ahnlicher Sprachelemente, vor dem Komprimieren aus den 

30 zu tlbermittelnden Sprachdaten extrahiert und der Sprachsyn- 
theseeinrichtung zum Einstellen von Wiedergabeparametern 
Ubermittelt werden. Die Wiedergabeparameter k5nnen auch ab- 
hSLngig von einer Kennung eines die Sprachdatenen sendenden 
Teilnehmers eingestellt werden, urn in die Sprachwiedergabe 

35 teilnehmerspezifische Elemente einflieBen zu lassen, die z.B. 
den Teilnehmer anhand der wiedergegebenen Stimme identifi- 
zierbar machen k5nnen. 
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Weiterhin besteht die MOglichkeit, die von der Sprachdat en- 
queue zxm Ubermittlungsziel zu tibermittelnden Sprachdaten 
als Kodezeichen in einem Speicher zwischenzuspeichern, um sie 
5 sp^ter ein oder mehrmals abzurufen. Durch die Reduzierung der 
Sprachdaten auf die Phoneme reprasentierenden Kodezeichen 
wird hierftlr in der Regel wesentlich weniger Speichplatz be- 
ntttigt als ftir ein Zwischenspeichern der uhveranderten 
Sprachdaten, 

10 

Die Phoneme reprasentierenden Kodezeichen bilden dartlber hin- 
aus einen mOglichen Ausgangspunkt fiir eine vielfSltige Wei- 
terverarbeitung der Sprachdaten. Beispielsweise konnen die 
Kodezeichen in den zugeordneten Phonemen entsprechende Buch- 
15 stabengruppen lamgesetzt werden und so die Sprachdaten als 

Text ausgegeben werden • Auch viele zeitgem^fie Verfahren zur 
automatischen Spracherkennung beruhen auf einem Zerlegen der 
Sprache in Phoneme und kttnnen daher direkt mit dem erfin- 
dungsgemSBen Verfahren kombiniert werden. 

20 

Die Erfindung wird nachfolgend anhand eines bevorzugten Aus- 
ftlhrungsbeispiels unter Bezugnahme auf die Figur nSher eriau- 
tert . 

25 Die Figur zeigt in schematischer Darstellung zwei Uber 

eine Ubertragungsstrecke verbundene Kommunikationsanla- 
gen. 

In der Figur ist eine als Sender von Sprachdaten fungierende 
30 Kommunikat ions anl age 1 und eine damit Uber eine Obertragungs- 
strecke US verbundene, als Empfanger der Sprachdaten fungie- 
rende Kommunikationsanlage 2 schematisch dargestellt. Die 
Kommunikationsanlage 1 enthalt als Funk t ions komponent en eine 
Sprachdatenquelle SDl und ein daran angeschlossenes neurona- 
35 les Netz NN mit Zugriff auf sprecherspezif ische Phonemkatalo- 
ge PNl und PN2. In der Kommunikationsanlage 2 sind eine an 
sprecherspezifische Phonemkataloge PSl und PS2 gekoppelte 



wo 99/40568 PCT/DE98/038n 



8 

Sprachsytheseeinrichtung SS und eine daran angeschlossene 
Sprachdatensenke SD2 dargestellt. 

Die BeschrSnkung auf zwei sprecherspezif ische Phonemkataloge 
5 je Kommunikationsanlage 1st hier lediglich als beispielhaft 
anzusehen und dient der Vereinf achung der nachf olgenden Er- 
lauterung. 

In den sprecherspezif ischen Phonemkatalogen PNl und PN2 sind 
10 jeweils Phoneme hinterlegt, die durch Analyse reprSsentativer 
Sprachdaten als charakteristische akustische Sprachelemente 
erkannt wurden. Die zur Erstellung der Phonemkataloge PNl, 
PN2 verwendeten reprasentativen Sprachdaten stammen dabei ftlr 
jeden Phonemkatalog von einem spezif ischen Sprecher, Den hin- 
15 terlegten Phonemen ist jeweils ein fUr den betref fenden Pho- 
nemkatalog eindeutiges/ abrufbares Kodezeichen zugeordnet. 

Das neuronale Netz NN ist auf ein Erkennen der in den Phonem- 
katalogen PNl, PN2 hinterlegten Phoneme innerhalb eines 

20 Sprachdatenstroms trainiert, wobei einstellbar ist, welcher 
der Phonemkataloge PNl, PN2 bei dieser Phonemanalyse zugrun- 
dezulegen ist, Diese Einstellung kann beispielsweise dadurch 
erfolgen, daii dem neuronalen Netz eine dem jeweiligen Phonem- 
katalog PNl bzw. PN2 entsprechende, sogenannte Gewichtsmatrix 

25 aufgepragt wird. 

Im Ausftihrungsbeispiel ist ein von der Sprachdatenquelle SDl 
ausgehender Sprachdatenstrom von der Kommunikationsanlage 1 
zur Sprachdatensenke SD2 in der Kommunikationsanlage 2 zu 

30 tlbermitteln, wobei die Sprachdaten vor der eigentlichen Uber- 
tragung zu komprimieren sind. Dazu wird von der Sprachdaten- 
quelle SDl zunachst eine Kennung eines die Sprachdaten sen- 
denden Teilnehmers dem neuronalen Netz NN zugefUhrt, das ab- 
hangig von der tlbermittelten Kennung, einen diesem Teilnehmer 

35 zugeordneten sprecherspezif ischen Phonemkatalog - hier PNl - 
ftir die nachf olgende Phonemanalyse auswahlt* Die Kennung wird 
daraufhin an die Kommunikationsanlage 2 weitertlbermittelt • 
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Anschliefiend wird der zu tibermittelnde Sprachdatenstrom dem 
neuronalen Netz NN zugeftlhrt, das im Sprachdatenstrom auftre- 
tende Sprachdatenmuster nach den im ausgewahlten Phonemkata- 
log PNl hinterlegten Phonemen klassif iziert . FUr jedes 
5 Sprachdatenmuster, das erfolgreich einem hinterlegten Phonem 
zugeordnet werden kann, wird anstelle des Sprachdatenmusters 
das dem hinterlegten Phonem im Phonemkatalog zugeordnete Ko- 
dezeichen tlber die tJbertragungsstrecke US zur Kommunikations- 
anlage 2 tlbertragen. Sprachdatenmuster, die nicht erfolgreich 
10 einem hinterlegten Phonem zugeordnet werden k5nnen, werden - 
durch ein mit den Phonemen zugeordneten Kodezeichen nicht 
tibereinstimmendes, spezielles Kodezeichen gekennzeichnet - 
unver^ndert tlbertragen. 

15 In der Kommunikationsanlage 2 wird zunSchst, abhangig von der 
ubermittelten Kennung, ein der nachfolgenden Sprachsynthese 
zugrundezulegender Phomenkatalog - hier PSl - ausgewahlt. Der 
nachfolgend empfangene Strom von Kodezeichen wird sodann der 
Sprachsyntheseeinrichtung SS zugefUhrt, die fUr jedes Kode- 

20 zeichen das diesem im ausgewahlten Phonemkatalog PSl zugeord- 
nete Phonem erzeugt und der Sprachdatensenke SD2 zuleitet. 
Die durch das spezielle Kodezeichen gekennzeichneten, unver- 
andert tibertragenen Sprachdatenmuster werden direkt zur 
Sprachdatensenke SD2 weitergeleitet . Auf diese Weise wird der 

25 Sprachdatenstrom wieder annahernd rekonstruiert bzw, dekom- 
primiert. 

Die Phonemkataloge PSl und PS2 sind im AusfUhrungsbeispiel 
als konventionelle Speicher realisiert, in denen jedem ent- 
30 haltenen Kodezeichen, eine zum Erzeugen des zugeordneten Pho- 
nems in der Sprachsyntheseeinrichtung SS erf orderliche Infor- 
mation zugeordnet ist. Die Phonemkataloge PSl und PS2 k5nnen 
durch Abrufen bzw. Auslesen der Phonemkataloge PNl bzw. PN2 
erstellt werden. 



wo 99/40568 




PCT/DE98/03812 



Patentansprtlche 



1. Verfahren zum Obermitteln von Sprachdaten von einer 
Sprachdatenquelle (SDl) zu einem Obermittlungsziel (SD2) 
5 unter Verwendiang sprach- tind/oder sprecherspezif ischer Pho- 
nemkataloge (PNl/ PN2, PSl, PS2), in welchen Phonemen ent- 
sprechende Sprachdatenmuster hinterlegt sind/ und jedem 
Phonem jeweils ein eindeutiges Kodezeichen zugeordnet ist, 
mit folgenden Schritten: 
10 a) abhangig von einer Kennung eines die Sprachdaten senden- 
den Teilnehmers wird ein diesem Teilnehmer zugeordneter 
sprecher- und/oder sprachspezif ischer Phonemkatalog (PNl) 
ausgewahlt, 

b) die zu tibermittelnden Sprachdaten werden einem auf das 
15 Erkennen der im ausgewahlten Phonemkatalog (PNl) hinterleg- 

ten Phoneme trainierten neuronalen Netz (NN) zugeftlhrt, das 
die Sprachdaten hinsichtlich der in diesen enthaltenen Pho- 
neme analysiert, 

c) fUr die in den Sprachdaten erkannten Phoneme wird das 

20 diesen im ausgewahlten Phonemkatalog (PNl) jeweils zugeord- 
nete Kodezeichen bestimmt, 

d) die Kodezeichen werden zu einer Sprachsyntheseeinrich- 
txing (SS) am Obermittlungsziel (SD2) ubertragen, 

e) der Strom empfangener Kodezeichen wird durch die Sprach- 
25 syntheseeinrichtung (SS) in eine Abfolge von den Kodezei- 
chen in einem Phonemkatalog (PSl) jeweils zugeordneten Pho- 
nemen iimgesetzt/ und 

f) diese Abfolge wird ausgegeben. 

30 2. Verfahren zum Obermitteln von Sprachdaten von einer 

Sprachdatenquelle (SDl) zu einem Obermittlungsziel (SD2) 
unter Verwendung sprach- und/oder sprecherspezif ischer Pho- 
nemkataloge (PNl, PN2, PSl, PS2) , in welchen Phonemen ent- 
sprechende Sprachdatenmuster hinterlegt sind und jedem Pho- 

35 nem jeweils ein eindeutiges Kodezeichen zugeordnet ist, mit 
folgenden Schritten: 

a) die zu tibermittelnden Sprachdaten werden einem auf das 
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Erkennen verschiedener Sprachen und/oder Sprecher trainier- 
ten neuronalen Netz zugefUhrt/ das eine Sprache, der die zu 
Obermittelnden Sprachdaten angehoreri/ und/oder einen Spre- 
cher/ von dem die zu tlbentiittelnden Sprachdaten stammen/ 
erkennt und ein Auswahlen eines dieser Sprache und/oder 
diesem Sprecher zugeordneten, sprach- und/oder sprecherspe- 
zifischen Phonemkatalogs (PNl) veranlaBt, 

b) die zu iibermittelnden Sprachdaten werden einem auf das 
Erkennen der im ausgewShlten Phonemkatalog (PNl) hinter leg- 
ten Phoneme trainierten neuronalen Netz (NN) zugeftihrt, das 
die Sprachdaten hinsichtlich der in diesen enthaltenen Pho- 
neme analysiert, 

c) ftlr die in den Sprachdaten erkannten Phoneme wird das 
diesen im ausgewahlten Phonemkatalog (PNl) jeweils zugeord- 
nete Kodezeichen bestimmt, 

d) die Kodezeichen werden zu einer Sprachsyntheseeinrich- 
tung (SS) am Obermittlungsziel (SD2) Obertragen, 

e) der Strom empfangener Kodezeichen wird durch die Sprach- 
syntheseeinrichtung (SS) in eine Abfolge von den Kodezei- 
chen in einem Phonemkatalog (PSl) jeweils zugeordneten Pho- 
nemen lamgesetzt, und 

f) diese Abfolge wird ausgegeben. 

3. Verfahren nach Anspruch 1 Oder 2, 
dadurch gekennzeichnet/ 

daB die von der Sprachdatenquelle (SDl) zum Obermittlungs- 
ziel (SD2) zu tlbenaittelnden Sprachdaten als Kodezeichen in 
einem Speicher zwischengespeichert werden, 

4. Verfahren nach einem der vorhergehenden Ansprtiche, 
dadurch gekennzeichnet, 

daB Informationen tiber einen bei der Phonemanalyse der zu 
tibermittelnden Sprachdaten benutzten Phonemkatalog (PNl) 
der Sprachsyntheseeinrichtung (SS) am Obermittlungsziel 
{SD2) tibermittelt werden, um dort fUr eine Rekonstruktion 
der tlbermittelten Sprachdaten verwendet zu werden. 
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5. Verfahren nach einem der vorhergehenden Ansprllche/ 
dadurch gekennzeichnet, 

dafi ein Phonemkatalog (PNl, PN2, PSl, PS2) wahrend einer 
SprachObermittlung unter Verwendung der zu tibermittelnden 
5 Sprachdaten aktualisiert wird. 

6. Verfahren nach einem der vorhergehenden Ansprtiche, 
dadurch g e k e n n z e i c h n e t , 

dafi das neuronale Netz (NN) wShrend einer Sprachtlbertragung 
10 auf das Erkennen der zu tibermittelnden Sprachdaten trai- 
niert wird. 

7. Verfahren nach einem der vorhergehenden Anspriiche/ 
dadurch gekennzeichnet, 

15 dafi der Strom der zu Ubertragenden Kodezeichen vor der 

tJbertragung durch Anwendung eines weiteren Komprimierungs- 
verfahrens komprimiert und am Obermittlungsziel (SD2) wie- 
der dekomprimiert wird. 

20 8. Verfahren nach einem der vorhergehenden Anspriiche, 
dadurch gekennzeichnet, 

dafi die Sprachsyntheseeinrichtung (SS) die Phoneme mit ein- 
stellbarer Lange, Lautstarke, Betonung, Stimmlage und/oder 
Stimme ausgibt. 

25 

9. Verfahren nach Anspruch 8, 

dadurch gekennzeichnet, 

dafi Laut- und/oder Stimmbesonderheiten vor dem Komprimieren 
aus den zu tibermittelnden Sprachdaten extrahiert und der 
30 Sprachsyntheseeinrichtung (SS) tibermittelt werden, urn dort 
zum Einstellen der Lange, Lautst^rke, Betonung^ Stimmlage 
und/oder Stimme mit der die Phoneme ausgegeben werden, ver- 
wendet zu werden. 



35 



10. Verfahren nach Anspruch 8 oder 9, 
dadurch gekennzeichnet, 

dafi die Kennung des die Sprachdaten sendenden Teilnehmers 
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der Sprachsyntheseeinrichtung (SS) Ubermittelt wird, und 
dort die h^nge, Lautstarke, Betonung/ Stimmlage und/oder 
Stimme mit der die Phoneme ausgegeben werden, abhangig von 
der Kennung eingestellt wird. 
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